Day6：清理數據並驗證基因代號轉換結果

2024 iThome 鐵人賽

DAY 6

自我挑戰組

16th鐵人賽 #python #生物醫學 #基因表現量 #網頁爬蟲

398 瀏覽

今天主要著重在清理轉換後的數據，並進行驗證。

基因代號轉換後，我需要對結果進行清理和驗證，因為有些基因雖然有 Symbol ID，但其在 Ensembl 上並未被定義，具體原因這邊不討論；而今天的工作重點是檢查哪些基因未能成功轉換，並將這些未成功轉換的基因數據清理掉。同時還需要對成功轉換的結果進行驗證，以確保數據的完整性。

首先我會檢查數據中的缺失值，也就是未能成功轉換的基因會在 ensembl_gene_id 列中顯示為空值。這些數據需要被清理掉，以避免後續的處理出現錯誤。

# 清理沒有成功轉換為 Ensembl Gene ID 的基因
df.dropna(subset=['ensembl_gene_id'], inplace=True)

在上面這段 Code 中，我使用 dropna 函數來刪除 ensembl_gene_id 中存在空值的行。這樣做可以確保只保留成功轉換的基因數據，並清理掉那些無法轉換的基因。

接下來，需要檢查轉換結果的準確性，方式可以通過檢查 DataFrame 中的前幾行來確認轉換是否成功，並確保數據格式正確：

# 輸入想查看的前幾行數據
print(df.head())

head 函數允許快速查看 DataFrame 的前幾行數據，這樣就能夠確認基因 Symbol ID 和 Ensembl Gene ID 是否已經正確比對。

今天所做的數據清理和驗證對於後續的數據處理非常重要。只有在保證數據的完整性和正確性下，才能在後續的爬蟲和計算過程中避免不必要的錯誤，同時也為下一步的爬取基因位置訊息做好準備。

系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

IT邦幫忙